多因素回归不能用逐步回归法?那么我该怎么办?
统计小食系列(10)
回归方法用来探讨疾病发生、发展和预后等结局的影响因素、控制混杂偏倚,也可以用于预测疾病结局。
回归方法实在用途太广了!它是医学、护理学、公共卫生、心理学、社会学的基本方法,应该说无论哪一类统计学研究都会用到回归方法。写论文,这是绕不过去的!
所有的医学统计学教材都会涉及到回归,教大家如何建模,讲得非常之专业,留下的是瞠目结舌的阅读者。学不会,怎么办?回归方法虐了一代又一代的年轻人,但最后貌似大家还是学会了用它来写论文。看起来不错。
一般建回归模型,用的是先单因素后多因素的方法,也就是先一个一个自变量做单因素回归,把P值较小(比如P<0.2)纳入多因素回归模型,再结合逐步回归法进行自变量筛选分析。
咋就要先单因素再多因素,为什么要P值<0.2? 师兄会说,这是祖传的,你照做就行。
但都没有人告诉我们,我们学的这种回归建模技术是不一定对的。更重要的是,被称为很巧妙的逐步回归法,它基本上没有什么卵用!
在之前,郑老师的推文:多因素回归要不要做逐步回归法?美国top杂志《内科学年鉴》给出答案。里面说,医学论文不要用逐步回归法!
好多朋友问我:为什么?那我们应该用什么方法来建模型?
好,我系统地梳理下,方便大家学习。如果你看完觉得郑老师写得真好,别竖大拇指了,我看不见;也别给我送钱了,咱们浙江中医药大学有的是钱!给我个文章分享即可!
1.为什么先做单因素,再做多因素?
我们一定要先单因素后多因素吗?不是的。先单后多,是因为,回归模型要遵循一个基本原则:模型自变量越少越好!为什么?因为回归分析自变量太多,建模会失败。一把来说,一个线性回归模型,需要5-10以上的样本量;logistic需要10-15倍的样本量。那么有限的样本量,你不能一下子把所有的感兴趣的变量全部放进去,那样肯定无法成功形成回归模型。所以只好挑选有可能有统计学意义的自变量纳入?怎么挑?先做单因素吧,把P值较小的纳入多因素回归!
但一定要先单后多吗?不一定,如果你样本量很大,自变量个数也不多,完全没有必要!毕竟,先单后多肯能会让你遗漏本来会有统计学意义的变量。
2.逐步回归法到底有什么用?
不可否认的是,逐步回归法是个好方法,它遵从的原则,就是模型自变量越少越好!但是,自变量少了肯定有问题,怎么办,它就提出另外一个筛选原则:通过反复挑选自变量,使得模型的模拟度(也就是对真实世界研究的仿真度)不差、且自变量个数最少。一般模拟度采用用R2(R平方)或者-2log对数似然比评价。
也就是,它通过操作,挑选出少数的自变量,就可以构建一个对真实世界研究很好预测功能的方程。看起来也很美好!筛选简单的几个变量就可以预测乳腺癌发病风险,多好!
国内生物统计学泰斗,中山大学方积乾教授说:对于要筛选变量,建立一个用于预测健康结局的回归方程,逐步回归法是一种优秀的方法。
因此,我不是说逐步回归法不好用。
3.为什么逐步回归法不适合大多数的医学研究
事实上,大多数医学研究采用回归分析并不是建立一个预测模型,更主要探讨:影响疾病发生或预后的结局的因素是什么、或者控制混杂因素,重点聚焦某一个因素对疾病结局的作用。基本上,大多数模型的模拟度会很小(比如R2不到0.2),但不妨碍我们建一个回归模型。我们也不看重模型对现实世界的仿真度,一般只探讨,这些变量对结局是否有影响(P是否小于0.05),或者b值是否不等0、OR值、RR值是否不等于1。
此时,逐步回归法则是一种粗暴的手段,它无视自变量之间的相互关系,完全是数据导向,非常有可能淘汰本来对疾病结局有影响、但不是那么重要的因素。
打个比方,我们学院医学统计学教研室就是一个回归模型,自变量就是我们教员,逐步回归法的意思,是学校不管教员之间的关系如何,是不是偷懒,它只要求,一年你们把所有的医学统计学课程全部拿下,不出事故,完成既定的科研任务;一旦如此,你们每个人上多少课、你们之间是否勾心斗角,学校是不管的。领导们就撂下一句话:你们自己问题自己解决。
所以,我经常跟学生说,逐步回归法是Garbage in,Garbage out的方法,不是什么好东西
4.我该用什么方法进行回归自变量筛选?
有人会问,郑老师,逐步回归法不是解决多重共线性吗?万一有多重共线性怎么办?
很遗憾,国内医学统计学教学很少介绍多重共线性处理,哪怕是研究生教学;国内教学往往只说多重共线性和及其处理手段,好像也不提为什么会有多重共线性。
多重共线性究竟怎么产生?
其主要是自变量之间相关,甚至是高度相关。那么为什么自变量会相关?常见有三点原因引起多重共线性:1.存在着混杂因素会相关;2存在着中间变量会相关、3、存在着共同原因会相关。最常见的是前两者。
举例:若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平。探讨随访血糖的影响因素,如果用箭头表示因果关系。大家可以看出,自变量胰岛素、基线血糖、糖尿病直接存在着复杂的关系,有些是中间变量,有些是混杂变量。
实际上,我们在探讨影响因素时,必须要考虑的情况是,第一,混杂因素必须纳入模型,第二,中间变量又不能纳入模型。
所以多重共线性问题的确应该要重视起来。但如果你认为存在着多重共线性,就采用逐步回归法,显然会乱杀、错杀,结果可能没有你想象那么好。
那我应该用什么方法?
DAG的方法来筛选自变量
采用效应改变法筛选自变量
这两种方法,我都有在之前的推文都有详细的陈述,如果有兴趣,可以看推文尾部的链接。
5. 案例分析
最近一期《柳叶刀肿瘤杂志》写了一篇文章,探讨儿童癌症器官移植的生存分析,采用就是效应改变法(Change-in-Estimate法)筛选自变量。
该文主要探讨不同性质的器官移植方式对儿童生存结局的影响,但是由于是回顾研究,必然会存在着混杂因素,因此采用COX回归控制混杂因素。怎么弄?首先他通过单因素回归筛选P值<0.1纳入多因素回归,然后采用效应改变法筛选自变量(Change-in-Estimate法)。
有兴趣的朋友可以研究一下该文章。
DOI 码为10.1016/ S1470-2045(19)30418-8 ,一般用SCI-hub可以下载。
本文结束,感谢阅读。
如何构建回归模型系列推文
统计小食系列推文
诸位,本公众号现在已经形成包括“样本量估算方法”、“医学研究进展”、“论文的统计表达方法”、“统计视频”(R、医学统计学、妙趣统计学)、“科研工具合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注。